草庐IT

开源 OLAP

全部标签

【通义千问】大模型Qwen GitHub开源工程学习笔记(5)-- 模型的微调【全参数微调】【LoRA方法】【Q-LoRA方法】

摘要:本文介绍了使用微调技术进行自然语言生成的方法。通过使用transformers库中的AutoModelForCausalLM和AutoTokenizer,可以在多节点环境下进行微调。训练数据的准备你需要将所有样本放到一个列表中并存入json文件中。每个样本对应一个字典,包含id和conversation,其中后者为一个列表。示例如下所示:[{"id":"identity_0","conversations":[{"from":"user","value":"你好"},{"from":"assistant","value":"我是一个语言模型,我叫通义千问。"}]}]微调方法分析微调脚本能

跟我一起学开源设计第3节: 开源的服务端用户埋点SDK源码设计与实现分析

一、背景在之前的分享中,我们通过引入用户行为分析GrowingIO的客户端SDK,介绍了SpringBootStarter的开发方法,同时也介绍了SpringBootStarter中的常见的几项高级配置的玩法本文来介绍该客户端SDK埋点的Java源码设计,希望可以借助这个源码分析和设计,可以让大家在日后的工作中,对于业务性的服务端的埋点上报之类的功能设计思想有所了解,能够自主的学会如何开发一个服务端的埋点上报的SDK组件,正如之前所说,这个东西其实不需要我们依赖服务端的运行,我们直接在客户端上面进行模拟数据上报这个操作即可。也可以自行登录到growingio网站上注册个试用账号。二、基本概念源

推荐几个开源HTTP服务接口快速生成工具

在现在流行微服务、前后端分离软件开发架构下,基于标准RESTful/JSON的HTTP接口已经成为主流。在实际业务中有很多需要快速开发调用数据服务接口的需求,但团队中缺乏专业的后端开发人员,比如:(1)数据库表已存在,如何快速把数据变成服务,供报表、大屏等数据可视化方式使用。(2)移动APP/H5/小程序开发,前端程序员快速开发后端接口进行接口调用和联调测试。(3)数据中台架构中,企业数据资产对外快速发布http服务及统一管理。如果是Java语言开发,正常开发一个RESTful接口服务流程如下:引入springboot框架,编写SpringMVC的Controller类代码,引入mybatis

部署一款开源的交互审计系统—Next Terminal

博客地址部署一款开源的交互审计系统—NextTerminal-雪饼(xue6ing.cn)https://xue6ing.cn/archives/bu-shu-yi-kuan-kai-yuan-de-jiao-hu-shen-ji-xi-tong--next-terminalNextTerminal是什么?NextTerminal是一个开源的交互审计系统,具有以下主要功能和优势:免费开源:NextTerminal在GitHub上已收获近4000Star(dushixiang/next-terminal:NextTerminal)。多协议支持:您可以在一套系统中访问RDP、SSH、VNC、TEL

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

Pika北大斯坦福联手,开源最新文本-图像生成/编辑框架!无需额外训练,即可让扩散模型拥有更强提示词理解能力。面对超长、超复杂提示词,准确性更高、细节把控更强,而且生成图片更加自然。效果超越最强图像生成模型Dall·E3和SDXL。比如要求图片左右冰火两重天,左边有冰山、右边有火山。SDXL完全没有符合提示词要求,Dall·E3没有生成出来火山这一细节。还能通过提示词对生成图像二次编辑。这就是文本-图像生成/编辑框架RPG(Recaption,PlanandGenerate),已经在网上引起热议。它由北大、斯坦福、Pika联合开发。作者包括北大计算机学院崔斌教授、Pika联合创始人兼CTOCh

OpenMMlab大模型实战班--书生·浦语大模型全链路开源体系

   课程链接:书生·浦语大模型全链路开源体系_哔哩哔哩_bilibili    从模型到应用        具体流程如下图所示:            书生·浦语全链条开源开放体系         针对以上的流程,上海人工智能实验室已经开源了大模型生态,包含书生浦语大模型InternLM,书生·万卷数据集,大模型预训练框架InterLM-Train,微调框架XTuner,部署框架LMDeploy,评测框架OpenCompass,开源智能体框架Lagent,开源智能体工具集AgentLego。数据:书生·万卷1.0包含1TB文本数据,140GB图像-文本数据,900G视频数据。预训练:Inte

给科研人的 ML 开源发布工具包

什么是开源发布工具包?恭喜你的论文成功发表,这是一个巨大的成就!你的研究成果将为学界做出贡献。其实除了发表论文之外,你还可以通过发布研究的其他部分,如代码、数据集、模型等,来增加研究的可见度和采用率。这将使更多人能够使用你的研究,并推动研究成果的应用。我们整理了这份文件,让你可以更好的了解和实践开源。希望这份文件对你有所帮助!什么是开源?公开研究-不仅仅是论文,还包括相关的所有成果,如代码、模型、数据集或在线演示。为什么要开源?进行开放获取研究[^1],可以让更多的人了解和使用你的研究或项目成果,促进社区研究人员之间的合作。通过共享机器学习的知识和资源以及社区协作,来推动机器学习领域的发展。[

对比国内主流开源 SQL 审核平台 Yearning vs Archery

Yearning,Archery和Bytebase是目前国内最主流的三个开源SQL审核平台。其中Yearning和Archery是社区性质的项目,而Bytebase则是商业化产品。通常调研Bytebase的用户也会同时比较Yearning和Archery。下面我们就来展开对比一下Yearning和Archery。数据库支持Yearning只支持MySQL,而Archery支持多种数据库,不同数据库的功能支持力度有所不同,见下图清单。主要功能对比来自双方官网的Yearning和Archery主要功能对比:Yearning界面Home工单申请工单执行SQL查询Archery界面Home工单申请工单

HarmonyOS开源软件Notice收集策略说明

开源软件Notice是与项目开源相关的文件,收集这些文件的目的是为了符合开源的规范。收集目标只收集打包到镜像里面的模块对应的License;不打包的都不收集,比如构建过程使用的工具(如clang、python、ninja等)都是不收集的。静态库本身是不会被打包的,一般是作为动态库或者可执行程序的一部分被打包到系统中的,为了确保完备,静态库的都会收集。最终合并的NOTICE.txt要体现出镜像中每个文件都是用了哪些License,模块和License要有对应关系。最终合并的NOTICE.txt文件在/system/etc/目录下。收集规则按照优先级收集License,以下由1到4,优先级依次降低

如何为开源项目和社区做贡献 -- 你应该知道的十件事

1.前言 大家好,我叫颜国进,现为英特尔边缘计算创新大使、百度飞桨开发者专家。回溯至2021年12月,那时的我,身为机械专业研一新生,仅在C和Python编程语言上有些许基础,对于深度学习的殿堂还只敢在门口窥探,对于OpenCV图像处理以及模型部署等技术更是所知甚少。然而,通过不懈的努力和对知识的执着追求,如今我已经能够娴熟地运用C++、C#等编程语言进行项目开发,并且能够使用Python和各类深度学习框架来训练自己的模型。值得一提的是,我已经发布并运营了一项名为OpenVINOC#API的开源项目,为在C#平台开发深度学习和计算机视觉应用的开发者提供更便捷的工具。围绕该项目,产出了多篇富有深